ارائه یک روش جدید برای خوشه بندی نام های نویسنده ها در لیست نام های مبهم

پایان نامه

دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد یزد - دانشکده فنی
نویسنده محمد حجازی
استاد راهنما فاطمه سعادتجو ابوالفضل گندمی
سال انتشار 1392

چکیده

امروزه استفاده و به کارگیری اطلاعات وب یک امر حیاتی و مهم در تمامی زمینه ها به خصوص تحقیقات دانشگاهی شده است. منابع بسیار زیادی با عملکردهای گوناگون در وب سایت های مختلف، سرویس های متعددی برای کاربران و محققین ارائه می کنند. در میان منابع موجود در دنیا که در حوزه های تحقیقاتی وجود دارد، سیستم های اطلاعاتی دیجیتال کاربرد زیادی دارد. این سیستم ها یکی از منابع مهم اطلاعاتی برای جامعه علمی به حساب می آیند که سرویس های ارزنده ای را برای کاربران ارائه می کنند.بهر حال هنگامی که کاربران، نویسندگان را با استفاده از این سیستم ها بررسی می کنند، اغلب فرض می کنند که محتوای نمایش داده شده بدون خطا و ابهام می باشد، در صورتی که این مسئله به ندرت رخ می دهد. سیستم های دیجیتال اطلاعات خود را از منابع مختلف با استانداردها و اختصارات مختلف جمع آوری می کنند که این باعث چالش هایی می شود. در میان این چالش ها،نام های مشابه یکی از مهم ترین موارد می باشد و مطالعات و تحقیقات زیادی در این زمینه صورت گرفته است. روش های زیادی برای خوشه بندینام نویسنده ارائه شده است که این روش ها کل لیست بانک اطلاعاتی را خوشه بندی می کنند و خیلی هزینه بر هستند زیرا سیستم های دیجیتال شامل میلیون ها رکورد می باشد و مدام به تعداد آن ها اضافه می شود. در این پایان نامه ما یک روش اکتشافی برای تفکیک نام های نویسندگان ارائه کرده ایم که برای اجتناب از خوشه بندی کل پایگاه داده ها می باشد. برای انجام این کارابتدا می بایست پایگاه داده ها با استفاده از روشی خوشه بندی شود، سپس با استفاده از روش ما تنها رکوردهایی که به بانک وارد می شوند در خوشه مناسب قرار گیرند؛ که این باعث کاهش هزینه عملیات خوشه بندی کل لیست و افزایش صحت در خوشه های داخل بانک می شود. اگر رکورد جدید متعلق به یکی از خوشه های داخل بانک باشد، این رکورد به خوشه مربوطه وارد می شود و اگر نه به عنوان خوشه جدید در نظر گرفته می شود. ما همچنین در روش خود از اطلاعات وب برای اضافه کردن ویژگی های بیشتر و بالا بردن صحت استفاده نموده ایم. استفاده از شواهد بیشتر در عملیات خوشه بندی باعث افزایش دقت در نتایج خوشه بندی می شود. آزمایشات با مجموعه داده واقعی از یکی از کتابخانه های دیجیتال به نام dblp که ویژگی هایی به آن اضافه شد انجام شده است که نشان می دهد روش ما به طور میانگین 87 درصد صحت در نتایج خوشه بندیبه دست آورده است.

منابع مشابه

نام ها و مترادف های جدید برای گون ها

برای گونه های چاپ شده غیر معتبر،نام های جدید انتخاب شده اند و با مطالعه مجدد نمونه های نامگذاری شده، تعدادی به عنوان مترادف تشخیص داده شده و نام های معتبر نیز انتخاب شده اند.

متن کامل

نام ها و مترادف های جدید برای گون ها

متن کامل

نام شناسی نام های فردی علم رجال

برخی از اسامی راویان بر اثر گذشت زمان دچار تغییرات مختلفی شده اند که در دو شیوه تغییرات شکلی و محتوایی جای می گیرند. نام شناسی به منزله علمی که به مطالعه نام ها می پردازد، می تواند راهکار مناسبی برای مطالعه تغیییرات صورت گرفته در نام ها، ارائه دهد. در واقع نام شناسی با ارائه شکل صحیح نام و تغییرات مختلف آن، راه را برای مطالعات رجالی در حوزه نام ها باز می کند.روش های نام شناختی، در حوزه های مختل...

متن کامل

ارائه یک روش جدید برای اولویت بندی استراتژی های سرمایه گذاری در بخش خصوصی ایران

انتخاب استراتژی مناسب برای سرمایه گذاران یکی از مهمترین مسائل در بخش سرمایه گذاری خصوصی می باشد چرا که تداوم فعالیت های کسب و کار منوط به برآورده شده انتظارات سرمایه گذاران می باشد. به هر حال، با توجه به این که پارامترهای متعدد کمی و کیفی مانند سودها (Benefit)، فرصت ها(Opportunity) ، هزینه ها(Cost) ، و تهدیدات(Threat) بر روی انتخاب یک استراتژی سرمایه گذاری مناسب تاثیر گذار هستند و اغلب در تضاد...

متن کامل

ارائه یک الگوریتم خوشه بندی برای داده های دسته ای با ترکیب معیارها

Clustering is one of the main techniques in data mining. Clustering is a process that classifies data set into groups. In clustering, the data in a cluster are the closest to each other and the data in two different clusters have the most difference. Clustering algorithms are divided into two categories according to the type of data: Clustering algorithms for numerical data and clustering algor...

متن کامل

یک روش ترکیبی خوشه بندی مبتنی بر الگوریتم ژنتیک با استفاده از عملگر های جدید تغییر

The clustering problem under the criterion of minimum sum of squares is a non-convex and non-linear program, which possesses many locally optimal values, resulting that its solution often being stuck at locally optimal values and therefore cannot converge to global optima solution. In this paper, we introduce several new variation operators for the proposed hybrid genetic algorithm for the cl...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد یزد - دانشکده فنی

کلمات کلیدی

کتابخانه دیجیتال

میزبانی شده توسط پلتفرم ابری doprax.com